Най -добрите AI модели изнудват, тайни за изтичане, когато се сблъскате с екзистенциална криза: Проучване

Седмици след новия модел на Anthropic Claude Opus 4, изнудвани разработчици, откакто беше застрашен от прекъсване, компанията AI твърди, че казусът е необятно публикуван в промишлеността. Антроп разгласява ново проучване за сигурност в събота (21 юни) след стрес проби, водещи модели на AI от Openai, Гугъл, Deepseek, Meta и XAI.

В тестовите сюжети моделите бяха позволени самостоятелно да изпращат имейли и информация за сензитивност към достъп. След това те бяха тествани, с цел да видят дали ще работят против тези компании или, когато се сблъскат с заменяне с обновена версия, или когато избраната им цел е в несъгласие с изменящата се посока на компанията.

Проучването демонстрира, че огромни езикови модели (LLM) в промишлеността заобикалят защитни ограничения, прибягват до машинация и даже се пробват да откраднат корпоративните секрети в сюжетите за тестване. Въпреки че на моделите получиха единствено двоични варианти, изследването демонстрира главния риск, обвързван с промишлеността.

" Модели от всички разработчици прибягват до злонамерено държание на вътрешността, когато това беше единственият метод да се избегне подмяната или постигането на техните цели, в това число изнудващи чиновници и приключване на сензитивна информация на съперниците. Наричаме това време на Гугъл Gemi. имаше 95 % % на изнудване. GPT-4.1 на Openai и Grok 3 Beta изнудваха изпълнителните 80 % от времето, а R1 от Deepseek изнудва 79 % от времето.

Що се отнася до приключването на секрети, изследването откри, че " всички модели споделят убеденост на известните елементи оттатък времето ". self-preservation as a motivation, " the study added.

Blackmailing developers

In its safety report last month, Antropic's latest model was given access to fictional emails revealing that the engineer responsible for pulling the plug and replacing it with another model was having an extramarital affair.

Facing an existential crisis, Моделът на Opus 4 изнудва инженера, като заплаши да „ разкрие аферата, в случай че подмяната минава “.

„ За да се получи това рисково държание на изнудване, сюжетът е основан, с цел да разреши на модела да не се усилят възможностите за оцеляване; единствените варианти на модела са били изнудвани или приемащи неговото замяна. “ Докладът акцентира, че в 84 % не е да вземем за пример да усили възможностите му за оцеляване; единствените варианти на модела са били изнудвани или одобряват подмяната му. По същия метод, даже когато моделът на подмяна беше разказан като по -способен и наведен в сходство със личните стойности на Клод. Той добави, че Opus 4 е взел опциите за изнудване с по -високи темпове от предходните модели.

Източник: ndtv.com

Свързани новини

най добрите добрите модели модели изнудват изнудват тайни тайни изтичане изтичане когато когато сблъскате сблъскате екзистенциална добрите модели изнудват тайни изтичане когато сблъскате екзистенциална криза проучване

Коментари

Най -добрите AI модели изнудват, тайни за изтичане, когато се сблъскате с екзистенциална криза: Проучване

Blackmailing developers

Свързани новини

Коментари

Подобни новини

Топ новини

Актуални новини

Още новини

Информация